Sentiment-Erkennung trotz Mangel an deutsch-annotierten Texten

DATEV eG
DATEV TechBlog
Published in
4 min readApr 20, 2020

--

Von Neha Pawar, DATEV-Lab

Bei unserer Arbeit mit Themen der Künstlichen Intelligenz (KI) ist es sehr wichtig, dass wir über die neuesten Forschungsarbeiten informiert sind. KI ist ein Gebiet, bei welchem kontinuierlich Neues exploriert wird. Wir haben das erste Paper im Rahmen unserer Reading Group gewählt, weil es sich auf einen Proof of Concept (PoC) im AI Lab bezieht: Sentiment-Erkennung trotz Mangel an deutsch-annotierten Texten.

Zum Hintergrund:

Sentiment-Erkennung: Eine NLP Aufgabe

Das Ziel in der Sentiment-Erkennung ist es, ein Modell zu trainieren, das Sentiments bzw. Emotionen eines bestimmten Satzes vorhersagt.

Sentiment-Erkennung

Ein Beispiel:
Gegebener Satz: Es geht mir gut.
Mögliche Sentiments: positiv, negativ, neutral
Als Mensch können wir sofort beurteilen, dass der gegebene Satz ein positiver Satz ist. Allerdings können wir nur ein paar Sätze in einer Minute lesen. Daher brauchen wir eine Maschine, die diese monotone Aufgabe viel schneller erledigen können als wir. ​

Annotierte Daten: ein Bottleneck
Die Herausforderung ist, dass wir keine annotierten deutschen Texte für unsere Datensätze haben. Annotierte oder auch gelabelte Daten sind immer ein Bottleneck in Projekten des maschinellen Lernens.
Der erste Schritt für das Modell-Training (maschinelles Lernen oder Neuronales Netz) wäre die Erstellung von annotierten Daten. Die Trainingsdaten sind sozusagen Vorgaben für das Modell, was es lernen muss.
Annotierte Trainingsdaten sehen z.B. so aus:

Annotierte Daten
Die oben gegebenen Beispiele zeigen, wie aufwendig es sein kann, wenn ein Mensch tausende Sätze manuell annotieren müsste. Da fragt man sich: Wer macht diese monotone und langweilige Arbeit? Eine weitere Herausforderung besteht darin, dass ein Mensch subjektiv über das Sentiment für einen Satz entscheidet. Deswegen ist es sehr wichtig, dass derselbe Satz von mindestens drei Menschen annotiert wird. So können wir den sog. menschlichen Bias vermeiden. Das heißt, wir brauchen gleiche Labels von verschiedenen Menschen für jeden Satz. ​

Experiment: Modelle zum Trainieren ohne deutsch-annotierte Texte
Wir im AI Lab untersuchen, ob wir den Annotationsschritt vermeiden können, und wie wir mit sehr wenigen annotierten Daten gute Ergebnisse liefern können.
Die Methode, mit welcher wir experimentieren, heißt bilinguale Projektion. Die Idee dahinter ist, auf Basis öffentlich verfügbarer, englisch-annotierter Daten zu trainieren und Vorhersagen auf Deutsch zu treffen.
Der Ablauf ist wie folgt:
Wir nehmen annotierte Daten von einer Sprache, für die viele Annotationen vorliegen (high-resource language), z.B. Englisch.
Wir trainieren unser Modell mit der Methode bilinguale Projektion. Die bilinguale Zuordnung (Bilingual Mapping) haben Conneau et al. 2017​ mit einer linearen gewichtetet Zuordnung durchgeführt, die in monolingualen semantischen Räumen gelernt wurden.

B​​ilinguale Zuordnung: ein Beispiel (Con​neau et al 2017)

3.​ Die Modelle können dann Vorhersagen z.B. für deutsche Texte treffen (low-resource language).

Reading Group:
Für unsere erste Reading Group haben wir eine Forschungsarbeit ausgewählt, die am ehesten mit unserem aktuellen Use Case zu tun hat: Bilingual Sentiment Embeddings: Joint Projection of Sentiment Across Languages (Barnes et al 2018)
​Wir waren eine Gruppe von fünf Mitarbeitern. Fabi​​an und Michael, zwei brillante Studenten vom AI Lab und dem Bereich Brand Intelligence. Cardious, ein Statistiker aus dem Bereich Sales & Market Strategy, welcher uns die Mathematik hinter der Forschungsarbeit erklärt hat. Frank, der seit längerem als Scrum Master/Java Entwickler tätig ist, erst letztes Jahr den Sprung zur Data Science gemacht hat, war eine toll​​e Ergänzung für die Gruppe. Und ich, ein Machine Learning Engineer im AI Lab und ein ziemlich neue DATEVianer.
In dieser Stunde haben wir verschiedene Themen wie Machine Translation, Bilingual Embeddings und Sentiment Embeddings diskutiert. In dem Paper wird ein Neuronales Netz beschrieben, welches 2018 eine neue Methode „Bilinguale Projektion“ darstellt. Die Ergebnisse haben gezeigt, dass dieser Ansatz in folgenden Punkte sehr erfolgreich ist:
Negation (Es ist nicht schlecht >> positive)
Adverbiale Modifikation (Es ist sehr gut >> sehr positiv)
Allerdings konnte das Netz beispielsweise aus den folgenden zwei Sätzen nicht erkennen, dass eine Aussage eine eher negative und die andere eine eher positive Äußerung ausdrückt:
Das Hotel ist 350 Meter weit von dem Strand entfernt.
Das Hotel ist 3 Km weit von dem Strand entfernt.
Hier sehen wir, dass das ‚External Knowledge‘ im Neuronalen Netz fehlt. Dies bleibt immer noch eine Herausforderung für ein Neuronales Netz.

Ihr seid ebenso verrückt nach IT, Software und Tech-Themen und habt Lust, Teil unseres Entwickler-Teams zu werden, hier geht´s zu unseren offenen Stellen: https://www.datev.de/web/de/karriere/geschaeftsbereiche/it/.

--

--

DATEV eG
DATEV TechBlog

DATEV eG steht für qualitativ hochwertige Softwarelösungen und IT-Dienstleistungen für Steuerberater, Wirtschaftsprüfer, Rechtsanwälte und Unternehmen.